科技 论文 数据 库 作者 识别 号 的 适用 性 研究 


摘要 : 


[目的 ] 检 验 主 要 科技 论文 数据 库 的 作者 识别 号 的 覆盖 范围 
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与 科技 政策 的 实证 研究 。 
[方法 ] 以 825 位 华人 科学 家 的 发 表 论 文 为 标准 数据 集 ， 通 过 检索 和 收集 科技 论文 数据 库 中 科学 家 识 
别 号 及 其 论文 信息 ， 计 算数 据 的 覆盖 率 、 准 确 性 和 稳健 性 ， 并 运用 双重 差分 法 进行 实验 复 现 检验 


数据 库 的 适 


jt. 


与 准确 性 ， 并 验证 其 能 否 直 接 用 于 科学 学 


[结果 ] 第 一 ，WOS、Scopus、AMiner 和 OpenAlex 四 个 数据 库 可 检索 到 90% 以 上 的 华人 科学 家 识别 
fj, ORCID Him 50%. Z, Scopus 的 准确 性 最 高 为 85.2%，OpenAlex 最 低 仅 为 51.296; 


第 三 ， 直 接 使 
[局 限 ] 准 确 集 主要 由 


数据 库 作者 识别 号 的 数据 用 于 实证 研究 会 纪 


入 不 可 忽视 的 误差 。 


青年 科学 家 组 成 ， 学 科 层面 未 覆盖 社会 


科学 与 人 文科 学 ， 具 有 一 定 的 局 限 性 。 


[结论 ] 当前 主要 数据 库 的 作者 识别 号 还 不 能 直接 应 用 于 大 规模 数据 的 实证 研究 ， 可 通过 建立 标准 化 


的 科学 家 成 果 认 证 信息 平台 来 提高 中 国 作 者 姓名 识别 准确 性 。 


关键 词 ， 科技 论文 数据 库 ， 作 者 识别 号 ， 姓 名 消 歧 ; 
分 类 号 ;G316，G353.1 
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Abstract 


[Purpose] To evaluate the coverage and accuracy of author identification number (author ID) of the major 


bibliographic databases and to assess whether they could be directly used in empirical research. 


[Methods] The ground truth data set consists of articles from 825 Chinese scientists. The coverage, 


accuracy, and robustness of each author ID are calculated by retrieving and collecting the IDs of scientists 


and their respective publication information in the bibliographic databases. The validity of the author IDs 


for empirical research is assessed by replicating a top journal empirical article using the data collected 


through author IDs. 


[Results] First, WOS, Scopus, AMiner, and OpenAlex can retrieve more than 90% of Chinese scientists' 


identifiers, while ORCID’s coverage is less than 50%. Second, the accuracy of Scopus is the highest at 


85.2%, and the accuracy of OpenAlex is the lowest at only 51.2%. Third, directly using the publication 


data collected through author IDs for empirical research will introduce non-negligible bias. 


[Limitations] The ground truth data set is limited, because it is mainly composed of young scientists, and 


lack scientists from social sciences and humanities. 


[Conclusion]At present, the author identification number of the major databases cannot be directly applied 


to the empirical research of large-scale data. A standardized information platform for scientists’ 


publications is needed to overcome the author-name disambiguation problem. 


Keywords: Bibliographic databases; Author identification number; Author-name disambiguation; 
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当今 世界 百年 未 有 之 大 变局 加 速 演进 ， 世 界 经 济 陷 入 下 行 周期 ， 各 主要 大 国 围绕 


科技 制高点 的 竞争 空前 激化 ， 科 技 创新 成 为 国际 战略 博弈 的 主要 战场 。 科 技 竞 争 的 决 


定性 力量 在 于 人 才 ， 实 施 人 才 强 国 战略 已 经 成 为 党 和 国家 一 项 重大 而 紧迫 的 任务 。 习 


近 平 总 书记 在 中 央 人 才 工 作 会 议 上 指出 ， 尽 管 “ 我 国 已 经 拥有 一 支 规 模 宏大 、 素 质 优 
民 、 结 构 不 断 优化 、 作 用 日 益 突出 的 人 才 队 伍 ”， 但 是 “人 才 发 展 体制 机 制 改革 “ 破 ” 


Ne 


得 不 够 、“ 立 ”得 也 不 够 ， 既 有 中 国 特色 又 有 国际 竞争 比较 优势 的 人 才 发 展 体 天 


1 


机 制 


还 没 真正 建立 ” 叫 。 十 八大 以 来 ， 我 国 科 学 研究 取得 新 的 历史 性 成 就 ， 我 国 高 质量 论 
文 首次 跃 居 世界 第 一 站， 我 国正 处 于 从 量 到 质 、 从 追赶 到 引领 的 关键 节点 。 在 研发 投 


入 持续 增长 与 高 等 教育 长 足 进步 背景 下 ， 


才 体 制 机 制 ， 是 建设 科技 强国 的 关键 。 其 中 ， 包 括 薪酬 设计 名 、 人 才 评 价 在 内 的 激励 


长 期 深入 研究 。 


建设 符合 科学 研究 规律 、 支 持原 始 创 新 的 人 


制度 是 人 才 发 展 体制 机 制 的 基础 由， 关乎 我 国 科 技 资 源 投入 到 产 出 的 转化 效率 ， 吸 需 
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判 的 研究 离 不 开 科 学 学 到 
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研究 的 支撑 。 人 才 评价 、 人 才 计 划 


还 是 激励 制度 的 改革 ， 都 需要 建立 在 精准 的 政 集 评估 的 基础 上 。 这 要 求 研究 单位 和 研 


究 数据 从 以 往 的 地 区 与 单位 层面 ， 精 细 化 到 科学 个 人 与 团队 层面 。 其 中 ， 科 技 论文 数 
据 是 不 可 或 缺 的 基础 数据 ，Web of Science、Scopus 等 数据 库 常 被 用 来 研究 科学 家 的 评 
价 E9、 流 动 [与 激励 四 等 问题 。 但 是 ， 大 量 科 学 家 共享 了 同样 的 姓氏 与 名 字 (或 名 字 
HEB ， 致 使 将 数据 库 中 姓名 相同 的 作者 区 分 为 现实 中 不 同 的 科学 家 《作者 姓名 消 
BO) 成 为 一 个 较 大 挑战 ， 这 一 现象 在 华人 群体 中 尤其 严重 001。 不 解决 这 个 问题 ， 就 无 
法 准确 进行 科学 家 层面 的 实证 研究 ， 理 论 研究 和 政策 研究 更 无 从 谈 起 。 

因此 ， 本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论 文 标准 数据 集 来 检验 主 
要 科技 论文 数据 库 Web of Science、Scopus、OpenAlex、ORCID 以 及 AMiner 的 作者 识 
别 号 的 履 盖 范围 与 准确 性 ， 并 通过 复 现 实验 检验 数据 库 识 别 号 能 否 直 接 用 于 实证 研究 。 
本 文 的 章节 安排 如 下 ， 第 二 部 分 对 相关 研究 进行 梳理 ， 第 三 部 分 介绍 研究 数据 与 方法 ， 
第 四 部 分 介绍 研究 结果 ， 最 后 进行 总 结 与 讨论 。 

2 相关 研究 

当前 作者 姓名 消 歧 的 方式 有 两 种 : 通过 算法 自动 生成 和 作者 自我 汇报 〈 认 领 ) 。 
前 者 的 覆盖 范围 更 全 ， 后 者 的 准确 性 更 高 。 作 者 姓名 消 歧 算法 使 用 分 析 型 或 模式 识别 
型 的 算法 将 作者 姓名 相似 的 论文 进行 聚 类 ， 自 动 生成 作者 识别 号 必 5。 其 中 最 著名 的 
是 由 Torvik 和 Smalheiser F 2009 年 开发 的 针对 MEDLINE 数据 库 的 作者 姓名 消 歧 算法 ， 
作者 的 算法 和 消 歧 数据 最 终 被 整合 进入 PubMed 数据 库 风 ， 为 诸如 科学 家 合作 05、 科 
学 研究 方向 选择 09、 人 性 别 问题 b4、 同 行 评 议 09 等 科学 学 与 科学 经 济 研究 议题 奠定 了 基 
础 。 遗 憾 的 是 ，Torvik 和 Smalheiser 的 数据 仅 文 持 医学 与 生命 科学 领域 的 研究 ， 无 法 
应 用 在 更 广泛 的 学 科 上 09。OpenAlex 使 用 机 器 学 习 算 法 将 其 所 有 论文 作者 进行 了 姓名 
消 歧 处 理 ， 并 开源 了 算法 源 代码 和 数据 !， 这 为 科学 学 研究 注入 新 的 动力 。 此 外 ， 大 
多 数 其 他 消 皮 算法 的 作者 并 没有 提供 开源 的 算法 与 数据 ， 复 现 算法 所 需要 的 算 力 和 资 
源 也 往往 超过 了 科学 学 研究 人 员 的 能 力 。 

为 了 解决 数据 库 姓名 歧义 的 问题 ， 各 主要 科技 论文 数据 库 运 营 商 与 其 他 非 营 利 组 
织 选择 了 另 一 条 技术 路 线 。2008 年 ，Web of Science 数据 库 (WOS) 推出 了 身份 唯一 
识别 符 ResearcherID， 科 学 家 可 以 注册 ResearcherID， 自 行 认 领 Web of Science 数据 库 
内 的 论文 。2012 年 ， 非 盘 利 组 织 Open Researcher and Contributor Identifier (ORCID) 
发 布 用 户 标识 符 ， 作 者 可 以 注册 ORCID， 并 在 其 平台 维护 个 人 的 学 习 与 工作 履历 ， 以 
及 论文 发 表 记 录 。 如 今 ， 很 多 国际 期 刊 要 求 作 者 在 提交 初稿 时 同时 指定 其 ORCID", 
Scopus 数据 库 的 Scopus Author Identifier (Scopus AuthorID〉 则 综合 了 自动 生成 算法 与 
科学 家 自主 反馈 的 方式 ?。 


| 算法 的 说 明 参 考 https://docs.openalex.org/api-entities/authors/author-disambiguation; 源 代码 位 于 https://github.com/ou 
rresearch/openalex-name-disambiguation/tree/main 。 


? Web of Science 目前 也 采用 了 自动 生成 算法 与 科学 家 自主 认领 相 结合 的 方式 。 


数据 库 的 作者 识别 号 为 以 科学 家 个 人 或 团队 为 研究 单位 的 科学 学 研究 提供 了 新 的 
高 质量 研究 数据 。 例 如 ，Moed 等 使 用 Scopus AuthorID KARE RREZE, Khurana 
和 Sharma 联合 使 用 Researcher ID, AuthorID 和 ORCID 来 研究 h 指数 如 何 用 于 科学 家 
的 评价 I。 相关 数据 近 些 年 开始 被 应 用 于 中 国 科学 家 的 研究 ， 如 Zhao 等 使 用 ORCID 
的 数据 证 实 海归 科学 家 并 没有 表现 出 比 本 土 科 学 家 更 强 的 学 术 发 表 能 力 乓 ， 这 一 结论 
与 学 术 界 的 认 知 相悖 >。 

科技 论文 数据 库 作 者 识别 号 的 准确 性 与 履 盖 范围 直接 影响 了 使 用 这 些 数据 的 实证 
论文 的 信 度 与 效 度 。 使 用 不 准确 的 数据 得 出 的 结论 可 能 是 具有 误导 性 的 ， 使 用 准确 但 
是 覆盖 范围 不 全 的 数据 得 出 的 结论 往往 缺乏 代表 性 。 因 此 ， 必 须 检验 科技 论文 数据 库 
作者 识别 号 的 适用 性 。Aman 使 用 193 名 德国 莱 布 尼 兹 奖 获 得 者 的 数据 证 实 了 Scopus 
AuthorID 的 查 全 率 和 精准 度 分 别 高 达 97% 和 100%P314， 并 且 证 实 可 以 用 Scopus 
AuthorID 来 追踪 科学 家 的 跨国 流动 。Kawashimal 和 Tomizawa 使 用 日 本 科学 资助 数据 
Æ KAKEN 证 实 Scopus AuthorID 的 查 全 率 和 精准 度 分 别 为 98% 和 99%P45。Boudry 和 
Durand-Barthez 则 发 现 ORCID 与 ResearcherID 对 一 组 法 国 科 学 的 履 新 率 均 不 足 20%, 
AXA ID 没有 涵盖 完整 的 发 表 记 录 户 。 可 见 ， 科 技 论文 数据 库 作 者 识别 叶 的 准确 性 
与 履 盖 范围 针对 不 同 的 群体 差异 显著 。 特 别 是 ， 当 前 的 研究 中 没有 针对 华人 科学 家 群 
体 的 检验 ， 这 便 限制 了 相关 作者 识别 符 在 我 国 科 学 学 与 科技 政策 研究 中 的 应 用 。 
3 数据 与 方法 
3.1 标准 数据 集 

本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论 文 标准 数据 集 ( 表 1) 。 该 数据 
集 涵盖 了 一 批 于 1997 年 至 2014 年 之 间 获 得 博士 学 位 的 华人 科学 家 ， 平 均 毕 业 年 份 为 
2007 年 。 其 中 ，14% 为 女性 ，18% 在 中 国 大 陆 取得 博士 学 位 ，65% 在 美国 获得 博士 学 
位 。 截 止 2019 年 ，49% 的 科学 家 在 中 国 大 陆 的 学 术 机 构 工作 ，42% 在 美国 的 学 术 机 构 
工作 ， 其 他 科学 家 主要 在 欧洲 、 日 本 与 中 国 香港 地 区 工作 。 该 数据 集 涵盖 了 所 有 自然 
科学 的 领域 ， 工 程 与 材料 科学 和 医学 领域 的 科学 家 最 多 ， 分 别 占 到 22% 与 21%; 地 球 
科学 领域 的 科学 家 最 少 ， 但 占 到 了 9%。 因 此 ， 该 数据 集 作为 标准 数据 集 ， 具 有 一 定 代 
表 性 。 


T 
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3 后 文中 将 看 到 ， 这 一 结论 很 有 可 能 是 由 于 ORCID 数据 的 缺失 造成 的 。 

4 此 处 需要 注意 的 是 ， 作 者 并 没有 收集 到 完整 的 科学 家 发 表 清单 ， 作 者 定义 的 查 全 率 是 主要 Scopus AuthorID 18 m 
文 占 到 所 有 AuthorID 论文 的 比重 ， 因 此 作者 可 能 高 估 了 查 全 率 。 
5 作者 估计 的 是 科学 资助 级 别 的 查 全 率 和 精准 度 ， 资 助 项 目 往往 只 能 代表 一 个 科学 家 3-5 年 的 发 表 记 录 ， 在 这 样 的 
时 间 维 度 上 ， 碍 全 率 和 精准 度 都 很 有 可 能 被 高 估 。 比 如 ， 一 个 科学 家 可 能 在 不 同 的 职业 生涯 阶段 分 别 主持 了 不 同 的 
研究 项 目 ， 算 法 较 容易 将 不 同 阶段 的 同一 个 科学 家 识别 成 为 不 同 的 作者 ， 从 而 生成 不 同 的 ID， 从 项 目 级 别 来 看 ， 
这 样 的 ID 非常 准确 ， 但 是 从 科学 家 的 几 倍 来 看 ， 这 样 的 ID 每 一 个 都 不 够 准确 。 


Shi 等 上 从 科学 家 的 个 人 主页 (41%) 、 谷 歌 学 术 (39%) . Researchgate (12%) 
等 来 源 收 集 了 这 些 科 学 家 从 博士 毕业 开始 至 2019 年 的 发 表 在 SCI/SSCI 索引 期 刊 的 所 
有 论文 发 表 记 录 6 CW 2) 。 数 据 集中 科学 家 平均 每 人 发 表 论文 56 篇 ”。 


表 1 标准 数据 集 特征 
Tablel Characteristics of the standard dataset 


变量 样本 量 均值 标准 差 最 小 值 最 大 值 

博士 毕业 年 份 824 2007 2.69 1997 2014 
dev 825 0.14 0.35 0 1 
在 中 国 大 陆 获得 博士 学 位 825 0.18 0.38 0 1 
在 美国 获得 博士 学 位 825 0.65 0.48 0 1 
在 中 国 大 陆 工作 (2019 年) 825 0.49 0.50 0 1 
在 美国 工作 (2019 年 ) 824 0.42 0.49 0 1 
数学 与 物理 825 0.18 0.39 0 1 
化 学 825 0.15 0.36 0 1 
信息 科学 825 0.14 0.35 0 1 
生命 科学 825 0.21 0.41 0 1 
工程 与 材料 科学 825 0.22 0.42 0 1 
地 球 科学 825 0.09 0.29 0 1 

论文 数量 825 56.03 73.34 1 1174 


大 陆 科 学 家 的 论文 数量 
海外 华人 科学 家 的 论文 数量 


表 2 标准 数据 集 数据 来 源 


Table2 Data sources ofthe standard dataset 


数据 来 源 个 人 认证 无 个 人 认证 
个 人 简历 与 主页 341 
谷歌 学 术 314 5 
Rearchgate 99 
ORCID 31 
Publons 12 13 
PubMed/ INSPIRE/Linkin 10 


HE. 谷歌 学 术 与 Publons 会 显示 该 账号 是 否 经 过 科学 家 个 人 认证 。 
3.2 科技 论文 数据 库 作 者 识别 号 与 发 表 论 文 


本 文通 过 标准 数据 集中 科学 家 的 工作 履历 以 及 研究 领域 从 科技 论文 数据 库 检 索 科 
学 家 对 应 的 作者 识别 号 。 本 文选 择 科 学 学 与 科技 政策 研究 中 最 常用 的 四 个 科技 论文 索 
引 数 据 库 ，Web of Science，Scopus，OpenAlex 与 AMiner， 前 三 个 数据 库 提 供 了 作者 
个 人 识别 号 (AuthorID〉，AMiner 则 提供 了 包含 论文 列表 的 科学 家 个 人 主页 。 

ORCID (Open Researcher and Contributor Identifier， 开 放 研 究 者 与 贡献 者 身份 识别 
码 ) 是 由 非 营利 性 组 织 ORCID 于 2012 年 10 月 16 日 推出 并 发 布 的 用 户 标识 符 。 通 过 
给 每 位 注册 的 科学 家 分 配 唯 一 的 16 位 数 标识 符 ， 为 研究 者 提供 唯一 的 身份 标识 。 科 学 


6 其 中 ，60 位 科学 家 的 数据 集 存 在 若干 年 份 缺失 。 对 于 这 些 科 学 家 ， 在 后 续 计 算 时 ， 缺 失 年 份 的 论文 数据 统一 进行 
了 删除 。 特 别 地 ， 如 果 使 用 765 位 拥有 完整 论文 发 表 数据 集 的 科学 家 论文 集 作 为 标准 数据 集 ， 本 文 的 研究 结论 不 会 
发 生 改 变 。 
7 数据 集中 包括 三 位 高 能 物理 领域 的 科学 家 ， 分 别 发 表 了 850 篇 、919 篇 和 1174 篇 论文 ， 从 标准 数据 集中 删除 这 三 
位 科学 家 不 会 改变 本 文 的 研究 结论 。 


家 可 以 将 在 ORCID 平台 中 关联 自己 发 表 在 WOS 与 Scopus 中 的 论文 5。2012 年 
ORCID 系统 整合 进入 WOS ResearcherID。 特 别 需要 注意 ， 论 文 准确 集中 包含 ORCID 
来 源 数 据 中 没有 谷歌 学 术 或 者 Researchgate 的 学 者 ， 且 ORCID 发 表 记 录 完 整 的 科学 家 。 
此 处 要 检验 的 是 ORCID 作为 单一 数据 源 的 效果 ， 与 标准 集 不 同 。 

Web of Science (WOS) 创建 于 1964 年 ， 窗 盖 了 自然 科学 、 社 会 科学 、 艺 术 和 人 
文学 科 等 全 球 范 围 内 的 学 术 期 刊 、 会 议论 文 和 引用 数据 ， 其 科学 引文 索引 〈SCI) 和 社 
会 科学 引文 索引 〈SSCI) 数据 集 是 科学 学 与 科技 政策 研究 的 权威 数据 集 。 和 截止 到 2023 
年 12 月 ，SCI 共 收 录 超 过 9,500 本 杂志 和 6,100 万 篇 论文 ，SSCI 共 收 录 超 过 3,500 本 
杂志 和 1,000 万 篇 论文 。2008 年 起 ，Web of Science 推出 身份 唯一 识别 符 ResearcherID 。 
一 开始 ，ResearcherID 系统 要 求 用 户 自行 注册 ， 注 册 后 ， 可 以 将 自身 的 ResearcherID 
与 Web of Science 中 的 论文 进行 连接 。 之 后 ，ResearcherID 引入 身份 自动 生成 算法 将 没 
有 作者 认领 的 论文 分 类 生成 作者 识别 符 忆 ]。 

Scopus 是 Elsevier 于 2004 年 推出 的 摘要 和 引文 数据 库 ， 完 整数 据 库 可 以 追溯 到 
1966 年 ， 包 括 生 命 科 学 、 社 会 科学 、 自 然 科 学 和 医学 领域 。Scopus 数据 库 使 用 数据 库 
中 记录 的 作者 及 其 出 版 物 的 信息 ， 如 所 属 单位 、 学 科 领 域 、 文 章 标 题 、 引 用 和 合 著 者 ， 
基于 先进 算法 为 每 位 作者 分 配 一 个 唯一 的 标识 符 ， 即 Scopus Author Identifier， 可 以 自 
动 区 分 同名 作者 以 及 匹配 作者 姓名 的 变化 中。 

AMiner 于 2006 年 3 月 推出 ， 是 新 一 代 科 技 情报 分 析 与 挖掘 平台 ， 由 清华 大 学 计 
算 机 科学 与 技术 系 教 授 唐 杰 率 领 团 队 建 立 ， 聚 合 了 全 球 各 个 国家 和 地 区 的 学 者 画像 、 
机 构 画 像 、 期 刊 画 像 等 数据 ， 和 履 盖 各 个 学 科 领 域 包括 自然 科学 、 社 会 科学 、 人 文科 学 
SEPSI, AMiner 从 分 布 式 网 络 中 提取 和 整合 学 术 数 据 ， 为 每 位 研究 人 员 创建 基于 语义 的 
个 人 资料 ， 使 用 生成 概率 模型 对 论文 、 作 者 和 发 表 地 点 等 主题 方面 进行 建 模 ， 分 析 和 
发 现 研究 人 员 社 交 了 网络 中 的 有 趣 模式 ， 以 及 基于 建 模 结果 实现 诸如 专业 知识 搜索 和 关 
联 搜索 的 若干 搜索 服务 ; 为 研究 人 员 提 供 了 一 个 档案 数据 集 P]。 

OpenAlex 是 OurResearch 在 2022 年 1 月 推出 的 是 一 个 免费 开放 的 全 球 学 术 研 究 数 
据 库 ， 收 录 了 各 学 科 领 域 的 开放 获取 期 刊 和 研究 成 果 B0。OpenAlex 由 研究 成 果 、 作 者 、 
机 构 、 场 地 和 概念 五 种 类 型 的 实体 组 成 ， 继 承 了 微软 学 术 (Microsoft Academic Graph) 
数据 ， 并 通过 机 器 学 习 算 法 对 所 有 作者 进行 了 姓名 消 歧 B11。 

本 文 在 以 上 五 个 数据 库 中 对 标准 数据 集中 的 科学 家 进行 检索 ， 并 记录 下 对 应 的 科 
学 家 识别 号 及 其 论文 信息 。ORCID、WOS、Scopus 与 AMiner 四 个 数据 库 具 备 网 页 检 
索 功 能 ， 有 具体 检索 步 又， 如 图 1 所 示 。 首 先 在 数据 库 检 索 界 面 输入 科学 家 信息 进行 检 
索 ， 如 姓名 、 工 作 机 构 等 ;其 次 根据 标准 数据 集中 科学 家 的 教育 背景 、 工 作 经 历 、 研 
究 领 域 和 起 始 时 间 等 关键 信息 ， 从 检索 结果 中 选取 匹配 的 且 有 发 表 记录 的 识别 号 ， 如 
果 存 在 多 个 与 相关 信息 匹配 的 科学 家 识别 号 ， 则 记录 下 前 三 位 最 为 匹配 的 识别 号 


CAMiner 则 记录 下 当前 科学 家 所 属 网 页 地 址 ) ;最 后 收集 科学 家 论文 信息 ， 包 括 发 表 
论文 doi 号、 标题、 期刊、 发 表 年 份 、 入 藏 号 、 作 者 等 。OpenAlex 提供 的 是 
PostgreSQL 数据 8， 本 文通 过 全 名 检索 在 authors 表 中 匹配 得 到 作者 这 信息 ， 并 利用 访 
id 信息 与 work 表格 中 author id 列 匹 配 进 而 得 到 其 论文 id (work id) ， 以 及 每 篇 论文 
中 作者 的 机 构 信 息 (Craw affiliation string) 。 进 一 步 从 数据 库 中 得 到 论文 相关 信息 ， 

包括 发 表 论 文 doi 号 、 标 题 、 期 刊 、 发 表 年 份 、 入 藏 号 、 作 者 等 。 后 续 分 析 中 ， 我 们 
将 使 用 准确 性 最 高 的 ID 作为 评判 标准 。 本 文 的 附件 以 科学 家 chen jianing 为 例 描述 了 
在 不 同 数据 库 中 的 检索 流程 以 及 科学 家 标识 号 和 论文 的 收集 记录 。 


WoS 
Scopus 


ea -| AMiner 
meS o meg M 


1. 科学 家 uniqueID : 若 有 多 条 信息 相 
符 ， 记 录 top3 科 学 家 ID 


2. 科学 家 论文 信息 : 如 下 ， 保 存 至 表 

pe | 一 一 一 一 格 。 表格 命名 为 "author name_unique ID" 
| 检索 字段 : 
| "学 者 姓名 "，" 工 作 机 构 "，" 学 科 领 域 …，| 


doi | 标题 | 期 乔 | wi | 人 can 


EDU 


I | 
TENU | 

| 
| “起 始 时 间 ” | 


图 1 数据 库 检 索 基 本 流程 图 
Fig.1 Basic Flow Chart of Database Retrieval 


3.3 数据 库 论文 集 与 标准 数据 集 之 间 的 连接 


本 文采 用 WOS 数据 库 的 论文 入 藏 号 来 连接 ORCID 与 WOS 论文 集 与 标准 数据 集 。 
我 们 找到 了 402 名 科学 家 的 ORCID， 总 计 24,181 篇 论文 ; 我 们 为 777 名 科学 家 检索 到 
1,115 个 WOS ResearcherID， 总 计 45,485 篇 论文 。 

对 于 Scopus. AMiner 和 OpenAlex， 分 别 按照 下 面 步 骤 连 接 数据 库 论 文集 与 标准 
数据 集 : 

第 一 步 ， 限 制 数 据 库 论文 集 范围 。 由 于 标准 数据 集 仅 收 录 了 科学 家 发 表 在 SCI 与 
SSCI 索引 杂志 的 论文 ， 本 文 首先 根据 Journal Citation Report 中 每 年 收录 杂志 的 清单 ， 
将 数据 库 论文 集 限制 在 SCI 与 SSC 收录 论文 范围 内 。 同 时 根据 标准 数据 集 对 每 个 科学 
家 的 覆盖 年 份 ， 将 数据 库 论 文集 现在 相同 年 份 发 表 的 论文 。 如 表 3 所 示 ，Scopus、 
AMiner 以 及 OpenAlex 的 数据 被 SCI/SSCI 履 盖 的 比例 分 别 为 72.9%、67.1% 以 及 61.9%。 


8 OpenAlex 数据 的 具体 获取 方式 参见 https://docs.openalex.org/download-all-data/download-to-your-machine 


第 二 步 ， 通 过 数字 对 象 唯 一 标识 符 〈DOI) 连接 论文 。 在 前 一 步骤 基础 上 ， 如 果 
论文 的 DOI 相同 ， 直 接连 接 。Scopus、AMiner 和 OpenAlex 三 个 数据 库 的 连接 比例 分 
别 为 77.2%、65.5% 以 及 4.7%。 由 于 OpenAlex 涉及 到 的 备 选 ID 与 论文 数量 比 其 他 数 
据 库 高 出 两 个 量 级 ， 匹 配 到 表述 数据 集 论文 的 比例 要 显著 更 小 。 

第 三 步 ， 通 过 发 表 期 刊 、 发 表 年 份 与 标题 精确 匹配 。 对 于 DO! 信息 缺失 的 论文 
(数据库 论 文集 与 标准 数据 集 其 一 缺失 ) ， 本 文通 过 发 表 期 刊 、 发 表 年 份 与 标题 精 和 
匹配 。 三 个 数据 库 在 这 一 步 的 匹配 率 分 别 为 5.1%、4.2% 以 及 0.2%。 

第 四 步 ， 通 过 标题 模糊 匹配 ， 人 工 检查 。 对 于 发 表 期 刊 和 年 份 精 确 匹 配 ， 但 是 标 
题 无 法 精确 匹配 的 论文 对 ， 本 文 计算 两 篇 论文 之 间 的 标题 相似 度 《〈 定 义 为 去 除 符 号 后 
的 论文 标题 重合 单词 数量 占 论文 单词 总 数 的 比例 ) ， 然 后 对 相似 度 超过 80% 的 论文 进 
行人 工 比 对 确认 是 否 为 同一 篇 论文 “。 这 一 步 又 中 匹配 到 0.9% 的 Scopus 论文 和 0.7% 
的 AMiner 论文 。OpenAlex 涉及 的 论文 数量 过 于 庞大 ， 只 能 略 去 人 工 校对 这 一 步 。 
此 ，OpenAlex 的 准确 性 可 能 会 被 低估 1% 左 右 。 但 是 ， 后 文中 我 们 将 会 看 到 ， 这 一 比 
例 对 数据 库 最 终 的 准确 性 评价 的 影响 可 以 忽略 。 

表 3 数据 库 论 文集 与 标准 数据 集 匹 配 过 程 
Table3 Matching process between database paper collection and standard dataset 


n : 期 刊 /年 份 / 标题 模糊 匹 。 准确 集 论 
1H 从 m 
数据 库 DA FA 论文 数量 we eee 标题 精准 匹 ” 配 与 人 工 校 ” 文 对 应 作 


ap 


量 x AX CH 论文 数量 A Pune n 
EO SAX 文 数量 WAE 配 论文 数量 对 论文 数量 。 者 的 数量 
ORCID 402 402 22,778 22,778 - E 24,181 
wos 1,151 777 58,073 58,073 - 45,485 
46,430 35,833 2,390 433 
Scopus 847 813 63,702 (72.9%) (77.2%) (5.1%) (0.9%) 46,330 
46,878 30,717 1,951 351 
AMiner 891 757 69,846 (67.194) (65594) 42) 0.7%) 45,163 
717,032 33,851 1,387 
OpenAlex — 16870 — 798 — 157866 (619%) (47%) 02%) 2 42,580 


通过 四 个 步骤 ， 我 们 可 筛选 出 每 一 个 数据 库 论 文集 与 标准 数据 集 之 间 的 交集 ， 用 
于 评价 数据 库 作 者 识别 号 的 效果 。 


3.4 判 断 指标 


本 文 使 用 以 下 指标 评估 数据 库 作 者 识别 号 的 覆盖 率 、 准 确 性 与 稳健 性 。 对 于 检索 
得 到 多 个 作者 识别 号 的 科学 家 ， 本 文 将 其 平均 指标 作为 最 终 指标 。 

mE (CV): 该 数据 库 中 满足 检索 条 件 可 获取 作者 识别 号 的 科学 家 人 数 占 总 人 
数 的 比例 。 该 指标 决定 了 数据 库 的 适用 范围 。 

B3 精准 度 (B3 precision, BP) 、B3 #4228 (B3 recall, BR) 与 B3F1 分 数 (B3 
Fl-score, BF1) ， 定 义 如 下 : 


[dtf 


? Openalex 涉及 到 的 论文 数量 过 大 ， 省 去 这 一 步 。 不 过 ， 由 于 这 一 步 实际 匹 配 的 论文 数量 很 少 ， 因 此 对 于 最 终结 果 
的 影响 很 小 。 


1 ID; N Gil 
BP = 一 X (1) 
N 24 |G 
1 |D; N G;l 
BR=—x (2) 
N i [Gi 
2 x BP x BR 
BF1 = 一 一 一 一 一 一 (3) 
BP+ BR 


其 中 ，Gi 表 示 科 学 家 i 的 标准 论文 数据 集 ，Di 表 示 科 学 家 在 数据 库 对 应 作者 识别 
符 下 论文 数据 集 ，N 表示 数据 库 中 检索 得 到 的 科学 家 人 数 ，|Di| 表 示 数 据 集中 的 元 素数 
量 。B3 准确 性 指标 是 文献 中 常用 的 衡量 算法 准确 性 的 指标 64。BP 描述 的 是 数据 库 中 
识别 出 来 的 科学 家 论文 有 多 少 比例 确实 是 科学 家 发 表 的 ，BC 描述 的 是 科学 家 实际 发 表 
的 论文 有 多 少 比例 确实 被 数据 库 识别 出 来 。 可 见 BP 与 BC 存在 某 种 平衡 关系 ， 例 如 ， 
一 个 精准 度 搞 得 算法 可 能 会 遗漏 掉 更 多 的 论文 ， 因 此 ， 本 文 使 用 其 调和 平均 数 来 表示 
BP 与 BC 的 平均 表现 。 

B3 准确 性 指标 衡量 的 是 每 个 科学 家 识别 号 的 准确 性 的 平均 值 。 为 了 衡量 数据 库 识 
别 号 的 稳健 性 ， 本 文 引 入 精准 度 与 查 全 率 的 标准 差 ， 定 义 如 下 : 


_ /lp: NG 
SDP = sa( Gl (4) 
D; NG; 
SDR = sd ( E J (5) 


3.5 实证 实验 

为 了 进一步 验证 作者 识别 号 能 否 用 于 科学 学 与 科技 政策 的 实证 研究 ， 本 文 将 不 同 
数据 库 中 识别 出 的 数据 集 复 现 Shi 等 上 的 研究 ， 检 验 不 同 数据 库 能 够 得 出 与 标准 数据 
集 一 致 的 研究 结论 。Shi 等 上 的 研究 问题 为 青年 华人 科学 家 回国 后 职业 生涯 《〈 相 比 于 
其 在 海外 学 术 界 工作 的 同学 而 言 ) 能 否 更 加 成 功 ? 文章 作者 使 用 了 标准 的 双重 差分 方 
法 ， 以 论文 发 表 数量 为 因 变 量 ， 以 归 国 科学 家 与 归 国 前 后 的 指标 变量 的 交 乘 项 为 核心 
自 变 量 ， 控 制 了 个 人 与 年 份 的 固定 效应 。 回 归 方 程 为 : 

Yi, = a + B PostReturn;, * Treat; + PostReturni, t yi + Nt + Eito 

Hop, VRRP EX i 在 t 年 的 论文 发 表 数 量 ，PostReturnit 表 示 科 学 家 i Æ tF 
是 否 回 国 ，Treati; 表 示 科 学 家 是 否 为 归 国 科学 家 。 同 时 ， 论 文采 用 了 匹配 的 策略 ， 只 
有 年 龄 与 学 习 经 历 相 似 ， 科 研 能 力 接近 的 科学 家 才能 最 终 进入 回归 。 


4 实证 结果 
4.1 覆盖 率 与 准确 性 


如 表 4 所 示 ，WOS、Scopus、AMiner 以 及 OpenAlex 四 个 数据 库 的 识别 号 覆盖 率 
均 达 到 91% 以 上 ， 其 中 Scopus 的 覆盖 率 最 高 为 98.5%，OpenAlex 第 二 高 为 96.7%。 值 


得 注意 的 是 ，ORCID 的 有 覆盖 率 仅仅 为 48.7%， 远 低 于 作者 的 预期 。 这 一 结果 虽然 好 于 
Boudry 和 Durand-BarthezP25] 的 发 现 ， 但 仍然 意味 着 有 超过 一 半 的 华人 科学 家 没有 注册 
ORCID 或 者 没有 在 ORCID 中 维护 个 人 信息 ， 以 至 于 无 法 检索 得 到 其 ORCID。 注 意 到 
标注 数据 集中 的 科学 家 已 经 是 青年 科学 家 群体 ， 如 果 考 虑 更 加 资深 的 华人 科学 家 ， 
ORCID 的 履 盖 率 可 能 还 会 更 低 。 因 此 ， 从 履 盖 率 的 角度 来 看 ，WOS、Scopus、AMiner 
以 及 OpenAlex 四 个 数据 库 中 可 以 找到 绝 大 多 数 的 华人 科学 家 识别 符 ， 可 以 用 于 实证 研 


25; 但 是 ORCID 的 履 盖 率 不 足 一 半 ， 用 于 实证 研究 可 能 会 带 来 不 可 忽略 的 偏差 。 
表 4 数据 库 识 别 号 的 履 盖 率 与 准确 性 
Table4 Coverage and accuracy of database identification numbers 


数据 库 人 均 论 文 数量 标准 集 人 均 论文 数 CV BP BR BF1 SDP SDR 
ORCID 56.66 59.76 0.487 0.826 0.738 0.780 0.214 0.366 
WOS 64.09 57.38 0.942 0.645 0.728 0.684 0.311 0.356 
Scopus 56.49 54.03 0.985 0.831 0.874 0.852 0.158 0.180 
AMiner 57.52 58.47 0.918 0.736 0.724 0.730 0.224 0.268 
OpenAlex 168.50 56.33 0.967 0.397 0.724 0.512 0.254 0299 


不 同 数据 库 识别 号 的 精准 度 差异 显著 。Scopus 的 精准 度 最 高 为 83.1%， 但 这 一 数 
FIEF AmanP??! fll Boudry 和 Durand-BarthezP25] 汇 报 的 结果 ， 说 明 Scopus 的 算法 在 华 
人 科学 家 群体 中 的 表现 低 于 其 在 其 他 族群 科学 家 群体 中 的 表现 。 令 人 意外 的 是 ， 
ORCID 的 精准 度 虽 然 比 WOS、AMiner 和 OpenAlex 更 高 ， 但 也 仅仅 为 82.6%， 并 没有 
达到 预想 中 的 接近 100% (理论 上 ORCID 的 数据 是 作者 个 人 维护 的 ， 因 此 应 该 非常 精 
HE) 。 本 文 认为 两 个 原因 共同 导致 了 这 一 现象 : 第 一 ， 检 索 到 了 错误 的 ORCID 导致 精 
准 度 为 零 ， 这 部 分 占 到 所 有 识别 号 的 2.7%; 第 二 ，ORCID 允许 作者 使 用 第 三 方 平台 
(如 Scopus, Crossref) 来 管理 其 个 人 数据 。 当 作者 将 第 三 方 平台 的 识别 号 与 ORCID 
连接 后 ，ORCID 会 自动 将 相关 平台 的 数据 导入 至 ORCID 中 ， 从 而 降低 了 精准 度 。 
WOS 和 AMiner 的 精准 度 分 别 为 63.5% 与 73.6%， 而 OpenAlex 的 精准 度 仅 仅 为 39.796, 
这 意味 着 这 三 个 数据 库 给 科学 家 分 配 了 非 本 人 发 表 的 论文 。 

不 同 数据 库 识别 号 的 查 全 率 相 对 接近 。Scopus 的 查 全 率 最 高 为 87.4%， 其 他 四 个 
数据 库 的 查 全 率 在 72.4% 至 73.8% 之 间 。WOS、Scopus 与 OpenAlex 的 查 全 率 高 于 精准 
度 ， 这 导致 其 作者 识别 号 会 高 估 科 学 家 的 发 表 数 量 。 其 中 ，OpenAlex 的 偏差 最 大 ， 高 
估 接 近 了 200%。 相 反 ，ORCID 与 AMiner 的 识别 号 则 会 低估 科学 家 的 论文 数量 ， 
ORCID 人 均 低 估 了 3.1 篇 论文 。 

ERE, Scopus 的 准确 性 最 高 ，F1- 分 数 达 到 85.2%， 比 其 他 数据 库 至 少 高 出 
7%， 这 可 能 得 益 于 Scopus 团队 对 作者 姓名 消 歧 算法 的 重视 与 持续 改进 ， 以 及 对 华人 
科学 家 群体 数据 集 的 关注 。 此 外 ，Scopus 数据 库 的 稳健 性 显著 高 于 其 他 四 个 数据 库 。 
如 图 2 PR, Scopus 的 综合 表现 最 好 。OpenAlex 的 准确 性 最 差 ，F1- 分 数 仅仅 为 51.2%， 
造成 这 一 结果 的 原因 可 能 是 : 第 一 ，OpenAlex 没有 引入 科学 家 个 人 认证 与 校对 的 机 制 ， 
第 二 ，OpenAlex 没有 使 用 高 质量 的 华人 科学 家 数据 集 来 训练 其 算法 。 


1-SDR BP 
——ORCID 
— WOS 
—— Scopus 
—AMiner 
——OpenAlex 
1-SDP BR 


BF1 
图 2 数据 库 识 别 号 的 覆盖 率 与 准确 性 


Fig.2 Coverage and accuracy of database identification numbers 


4.2 异 质 性 


作者 姓名 消 歧 工作 实际 上 是 将 某 个 作者 的 论文 《准确 论文 ) 从 一 组 作者 姓名 一 至 
的 论文 〈 备 选 论 文 ) 中 识别 出 来 。 备 选 论文 的 信息 与 准确 论文 的 信息 越 接近 ， 作 者 姓 
名 消 歧 的 挑战 越 大 。 当 科学 家 工作 的 单位 与 领域 中 同名 人 数 更 多 时 ， 往 选 出 其 准确 论 
文 的 难度 会 更 大 。 而 工作 单位 (包括 地 区 ) 与 领域 往往 是 实证 研究 中 的 重要 变量 ， 数 
据 的 偏差 将 直接 扭曲 研究 结论 。 

本 文 将 每 个 科学 家 的 工作 经 历 分 为 大 陆 与 海外 两 部 分 ， 分 别 考察 数据 库 作 者 识别 
号 针对 不 同 地 区 华人 科学 家 的 准确 性 。 如 表 5 所 示 ， 不 同 于 前 文 的 猜测 ， 大 部 分 数据 
库 的 作者 识别 号 《〈 除 ORCID 之 外 ) 反而 对 华人 学 者 在 大 陆 工 作 期 间 发 表 的 论文 准确 度 
更 高 。 为 外 ， 除 AMiner 之 外 ， 各 数据 库 都 会 高 估 科 学 家 的 论文 数量 ， 同 时 对 于 大 陆 


工作 期 间 的 科学 家 高 估 的 数量 更 多 。 
表 5 数据 库 识 别 号 对 不 同 地 区 华人 科学 家 的 准确 性 
Table5 Accuracy of database identification numbers for Chinese scientists in different regions 


数据 库 地 区 人 均 论文 数量 标准 集 人 均 论文 数 BP BR BF1 
EY 39.17 38.96 0.819 0.817 0.818 

ORCID 大 陆 42.47 46.99 0.845 0.764 0.803 
wos i 45.50 33.14 0.590 0.783 0.673 
大 陆 62.10 49.48 0.631 0.805 0.708 
ig 32.92 31.93 0.826 0.859 0.842 

Scopus " 

大 陆 47.72 44.52 0.837 0.884 0.860 
AMiner HEY 32.26 32.62 0.717 0.695 0.706 
大 陆 49.36 49.01 0.765 0.786 0.776 
patie i 108.32 32.78 0.372 0.713 0.489 
大 陆 127.80 48.89 0.438 0.721 0.545 


11 


本 文 进一步 考察 了 数据 库 识 别 号 准确 性 CPL 分 数 ) 的 学 科 差异 。 本 文 将 科学 家 分 
为 化 学 、 地 球 与 环境 科学 、 工 程 与 材料 科学 、 信 息 科 学 、 生 命 科 学 以 及 数理 科学 六 个 
领域 。 如 图 3 所 示 ， 各 数据 库 (OpenAlex 外 ) 在 信息 科学 领域 的 准确 性 都 远 低 于 其 他 
科学 领域 。Scopus 准确 性 的 学 科 差 异 较 小 ， 且 均 高 于 其 他 数据 库 的 最 高 水 平 。 

1 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 
02 
0.1 

0 


ORCID WOS Scopus Aminer OpenAlex 
化 学 ”地 球 与 环境 科学 ”a 工程 与 材料 科学 ”信息 科学 ”生命 科学 ”数理 科学 


图 3 数据 库 识 别 号 准确 性 的 学 科 差 异 


Fig.3 Disciplinary differences in the accuracy of database identification numbers 
最 后 ， 本 文 将 各 数据 库 识别 号 准确 性 (Fl 分数 ) 与 科学 家 的 个 人 特征 进行 回归 。 
如 表 6 PAX, ORCID, WOS 与 Scopus 数据 库 对 于 越 年 轻 的 科学 家 准确 性 越 搞 ， 同 时 ， 
ORCID 与 AMiner 对 于 在 大 陆 工作 的 科学 准确 率 更 高 ， 但 是 高 出 的 幅度 有 限 。 而 
OpenAlex 数据 库 对 于 女性 科学 家 准确 性 低 于 男性 科学 家 ， 这 意味 着 使 用 OpenAlex 可 
能 会 错误 估计 科学 家 科研 效率 的 性 别 差异 。 
表 6 识别 号 准确 性 与 科学 家 个 人 特征 
Table6Accuracy of identification number and personal characteristics of scientists 


(1) (2) (3) (4) (5) 
ORCID WOS Scopus Aminer OpenAlex 
女性 -0.029 -0.021 -0.001 -0.023 -0.065™* 
(0.051) (0.035) (0.017) (0.027) (0.027) 
毕业 年 份 0.012* 0.013** 0.006** 0.005 0.004 
(0.006) (0.005) (0.002) (0.003) (0.004) 
2019 年 在 大 陆 工 作 0.063* 0.033 -0.009 0.067 0.008 
(0.034) (0.026) (0.013) (0.020) (0.022) 
其 他 控制 变量 
学 科 是 是 是 是 是 
博士 学 位 国家 是 是 是 是 是 
样本 量 401 774 809 753 794 
对 数 似 然 0.084 0.059 0.027 0.025 0.028 


TE: CD - (5) 中 的 模型 设 定 为 一 般 线 性 回归 ， 以 识别 号 的 Fl 分 数 为 因 变 量 ， 样 本 量 与 表 4 
的 差异 源 自 变量 缺失 ， 标 准 误差 在 括号 内 ;显著 性 水 平 : * p<0.1,** p<0.05, *** p<0.01。 
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4.3 实证 研究 复 现 结果 


K 7 中 汇报 了 使 用 不 同 数据 库 中 识别 出 的 数据 集 复 现 Shi 等 上 的 研究 的 结果 。 其 
H, CG) 列 中 汇报 了 Shi 等 上 的 标准 数据 集 的 结果 ， (20 - (6) 列 使 用 各 数据 库 的 
结果 。 如 表 7 所 示 ， 标 准 数据 集 的 系数 估计 为 0210 (p<0.01) 。 使 用 ORCID 与 
OpenAlex 进行 同样 的 估计 得 到 的 系数 均 不 显著 ， 这 可 能 是 由 于 ORCID 的 样本 量 过 少 ， 
而 OpenAlex 的 准确 性 较 低 。 尽 管 使 用 WOS、Scopus、AMiner 数据 估计 模型 可 以 得 到 
正 显著 的 系数 ， 但 是 ， 这 三 个 模型 都 会 高 估 实 际 系数 ， 高 估 的 幅度 分 别 为 55%、99% 
与 85%， 高 估 的 幅度 是 不 可 以 忽略 的 。 尤 其 是 ， 尽 管 Scopus 数据 库 在 覆盖 率 、 准 确 性 
与 稳健 性 方面 均 好 于 其 他 数据 库 ， 但 是 其 高 估 的 幅度 高 达 99%， 极 大 限制 了 该 数据 库 
的 适用 性 。 因 此 ， 本 文 认为 ， 基 于 本 文 的 实践 ， 目 前 的 五 个 数据 库 识 别 号 还 不 能 直接 
应 用 于 实证 研究 。 


表 7 复 现实 证 研究 的 结果 
Table7 Results of the reproduction of the empirical study 


(1) (2) (3) (4) (5) (6) 
GT ORCID WOS Scopus AMiner OpenAlex 
海归 * 回 国 后 0.210"* 0.289 0.326" 0.418" 0.388" 0.094 
(0.076) (0.152) (0.094) (0.103) (0.096) (0.071) 
样本 量 4,191 688 2,530 3,019 2,329 3,092 
对 数 似 然 -8,276 -1,363 -5,542 -6,781 -5213 -7,966 


5A; 显著 性 水 平 : * p<0.1,** p<0.05, *** p«0.01. 
5 结论 与 讨论 
本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论 文 标准 数据 集 来 检验 科技 论文 
数据 库 Web of Science、Scopus、OpenAlex、ORCID 以 及 AMiner 的 作者 识别 号 的 履 盖 
范围 与 准确 性 。 本 文 发 现 ， 数 据 库 识别 号 的 准确 性 差别 较 大 ， 处 于 51.2% 至 85.2% 之 
间 ，Scopus 的 准确 性 最 高 ，OpenAlex 的 准确 性 最 低 。 其 中 ， 在 WOS, Scopus, 
AMiner 以 及 OpenAlex 四 个 数据 库 中 可 以 找到 绝 大 多 数 的 华人 科学 家 识别 符 ， 可 以 用 
于 实证 研究 ， 但 是 ORCID 的 履 盖 率 不 足 一 半 ， 用 于 实证 研究 可 能 会 带 来 不 可 忽略 的 偏 
差 。 本 文 进一步 揭示 数据 库 识别 号 的 准确 性 受到 科学 家 工作 地 区 以 及 学 科 的 影响 ， 最 
后 通过 复 现实 验证 实 目 前 的 数据 库 识别 号 还 不 能 直接 应 用 于 实证 研究 。 
那么 应 该 如 何 使 用 科学 家 论文 数据 来 进行 实证 研究 ? 这 一 问题 的 答案 与 具体 研究 
样本 与 分 析 单位 密切 相关 。 当 分 析 单 位 具体 到 个 体 自然 人 且 样 本 量 不 大 时 ， 本 文 建议 
研究 人 员 收 集 科 学 家 的 个 人 完整 履历 ， 并 利用 刘 玮 辰 653 与 Shit0 等 开发 的 基于 科学 家 
职业 经 历 和 引文 网 络 的 姓名 消 歧 算法 ， 这 一 算法 的 准确 度 均 显 著 高 于 数据 库 的 作者 识 
别 号 ， 运 算 效率 高 ， 且 得 到 了 国际 顶尖 期 刊 的 认可 。 当 进行 大 规模 数据 分 析 时 ， 前 述 
算法 并 不 适用 ， 本 文 建议 研究 人 员 首 先 使 用 小 规模 准确 集 数 据 对 数据 库 的 作者 识别 号 
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进行 检验 ， 并 在 文中 汇报 研究 结果 的 稳健 性 。 此 外 ， 本 文 呼吁 国内 相关 机 构建 立 标准 
化 的 科学 家 成 果 认 证 信息 平台 ， 为 每 一 个 国内 工作 的 科学 家 分 配 唯一 识别 号 ， 并 在 政 
策 层 面 激励 每 个 科学 家 主动 维护 成 果 信 息 。 这 不 仅 有 助 于 从 源头 上 解决 我 国 科 学 家 的 
论文 作者 姓名 卜 义 问题 ， 还 可 以 为 改进 姓名 消 歧 算法 积累 宝贵 的 训练 数据 集 。 
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附件 

本 文 使 用 一 批 青年 科学 家 的 准确 集 数 据 ， 在 Web of Science, ORCID, Scopus, AMiner 
和 OpenAlex 数据 库 中 对 这 些 科 学 家 进行 检索 ， 并 收集 科学 家 在 不 同 数 据 库 中 的 标识 号 和 
论文 数据 。 具 体 流程 如 下 : 第 一 步 : 在 数据 库 检 索 界面 输入 科学 家 信息 并 进行 检索 ， 如 姓 
名 、 工 作 机 构 等 ， 第 二 步 : 根据 检索 结果 与 待 测 数 据 集中 科学 家 的 姓名 、 教 育 背景 、 工 作 
机 构 、 研 究 领 域 和 起 始 时 间 等 关键 信息 进行 核对 ， 以 判定 是 否 为 同一 位 科学 家 。 第 三 步 : 
记录 下 科学 家 标识 号 ， 如 果 有 多 个 与 相关 信息 相 匹 配 的 科学 家 标识 号 ， 则 记录 下 前 三 位 最 
为 匹配 的 科学 家 标识 号 ，AMiner 记录 科学 家 网 页 链接 。 第 四 步 : 确定 对 应 科学 家 后 ， 收 
集 并 保存 相关 论文 信息 至 表格 中 ， 每 个 表格 都 以 “author name unique ID” 命 名 ， 表 格 基 
本 信息 包括 : 论文 doi 号、 标题、 期刊、 年 份 、 入 藏 号 、 作 者 等 。 图 1 是 此 次 进行 检索 的 
基本 步骤 。 


-| AMiner 
= sey trae [Opener 
标准 数据 集 


数据 检索 


1. 科学 家 uniqueID : 若 有 多 条 信息 相 
符 ， 记 录 top3 科 学 家 ID 


信息 比 对 


2. 科学 家 论文 信息 : 如 下 ， 保 存 至 表 


: | 一 iu. 格 。 表 格 命名 为 "author name unique ID" 
[ee Ur | “学 者 姓名 ”| | 
检索 字段 : Er | 
Perea) Mpeg PS ena” | [ oi | aan [sar | aia | 人 者 [ame]. | 
| 学 科 领 域 ”| 
| “起 始 时 间 ”| 


图 1 数据 库 检 索 基 本 流程 图 
Fig.1 Basic Flow Chart of Database Retrieval 


以 科学 家 chen jianing 为 例 〈 图 2)， 记 录 在 5 个 数据 库 中 进行 检索 并 保存 科学 家 标识 


Im] N Ma Mj M 口 
号 和 论文 数据 过 程 。 
A B G D E F 
1 uniquelD inst startyear — endyear Familyname Givenname 
66 |1 655 Dalian University of Technology 2003 2008 chen jianing 
67 |1 655 Lund University 2009 2009 chen jianing 
68 |1 655 CIC Nanogune & Donostia Internation 2010 2013 chen jianing 
69 |1 655 University of the Basque Country 2010 2013 chen jianing 
70 |1 655 Institute of Physics, CAS 2013 2021 chen jianing 


图 2 标准 数据 集中 chen jianing 基本 信息 


Fig.2 Basic information of chen jianing in the data set to be measured 
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1 Web of Science 


AAA 


第 一 步 ， 进 入 网 站 检索 界面 ，https:/www.webofscience.com/wos/author/search; 

第 二 步 ， 输 入 科学 家 姓名 ， 如 图 3 所 示 ; 

第 三 步 ， 根 据 科 学 家 工作 机 构 进行 精炼 〈 图 3); 

第 四 步 ， 收 集 科 学 家 的 论文 信息 〈 如 : doi， 标 题 ， 期 刊 ， 年 份 ， 入 藏 号 ， 作 者 ， 
Researcher ID) 至 “2 chen jianing HPU-2037-2023”. 


+ 添加 姓名 的 不 同 拼写 形式 


图 3 Web of Science 数据 库 中 输入 chen jianing 姓名 


Fig.3 Entering chen jianing's name in Web of Science database 


5 Web of Science 上 的 如 下 结果 : 


Q_chenjianing (作者 姓 4 


精炼 依据 ofScences X ) 全 部 清除 
精炼 检索 结果 — 
口 o/s 作为 组 合 的 记录 查看 合并 记录 
快速 过 滤 
包括 Web of Science 核心 合集 出 版 物 
a 1 Chen, Jia (Chen, Jiabin) © 
认领 状态 
已 认领 状态 East China Normal Universit 
已 认领 的 个 人 信息 Eas F nd Technol 
未 认领 的 个 人 信息 SHAN PLES 4i 
作者 姓名 


图 4 Web of Science 中 进一步 精炼 科学 家 工作 机 构 
Fig.4 Further refining the body of scientists working in Web of Science 


2 ORCID 
第 一 步 ， 通 过 网 址 ， 进 入 官网 https://orcid.org; 
第 二 步 ， 输 入 相关 信息 : first name, last name, institution name， 如 图 6 Pras; 
第 三 步 ， 核 对 关键 信息 是 否 一 致 〈 如 inst-startyear-endyear) (图 7); 
第 四 步 ， 收 集 科 学 家 的 论文 信息 〈 如 : doi， 标 题 ， 期 刊 ， 年 份 ， 入 藏 号 ， 作 者 ， 
ORCID ID, Researcher ID) #“chen jianing_0000-0002-7525-1424”. 
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SIGN IN/REGISTER — English v 


ORCID |, _ 


ABOUT FOR RESEARCHERS MEMBERSHIP DOCUMENTATION RESOURCES NEWS & EVENTS SIGN IN 


Search 


ADVANCED SEARCH ~ 


jianing chen Dalian University of Technology Keyword 
[O Also search other name fields 


ORCID 1D 


Showing 1 of 1 results. 


so 
ORCID ID First Name Last Name Other Names Affiliations 
0000-0002-7525-1424 Janing Chen CIC nanoGUNE Consolider, Dalian University, Dalian University of Technology, Institute of 
Physics Chinese Academy of Sciences, Lund University Semhdallsvetenskapliga fakulteten 
so 


5 ORCID 中 输入 科学 家 关键 信息 
Fig.5 Key information for scientists entered in ORCID 


[iD] © is this you? Sion in to start editing SD mo 
I 


https-//orcid.org/ 


0000-0002-7525-1424 Jianing Chen 


Activities — 
Le 

Institute of Physics Chinese Academy of Sciences: Beijing. CN 

2013-07-01 to present | Professor (Lab for Optics) Show more detas 

Employment 

Source: F3 janing Chen 


CIC nanoGUNE Consolider: San Sebastian, País Vasco, ES 


2010-01-0! to 2013-06-30 | postdoc (Nanooptcs) Show more detas 
Emo! 

Source: © jianing Chen 

Lund University Samhallsvetenskapliga fakulteten: Lund, SE 

2009.01.01 to 2009-12-30 | Postdoc (Solid State Physics) Show more detas 
Employment 


Source: ©) jianing Chen 


Education and qualifications (2 


Dalian University of Technology: Dalian, Liaoning. CN 


2003-09-01 to 2008-12-20 | PRO (Physics) Shen more deta 
Education 


Source: ©) joning Chen 


Datian University: Dalian, CN 


1999-09-01 to 2003-06-30 | Undergraduate (Physics) show more detas 
Education 


Source: ©) jianing Chen 


6 ORCID 中 关键 信息 比 对 
Fig.6 Comparison of key information in ORCID 


3 Scopus 

Bw, BAM DAVE TRE, https://www.scopus.com/search/form.uri?display=authorLo 
okup#author; 

第 二 步 ， 输 入 相关 信息 ， 如 : first name, last name, institution name， 并 进行 检索 ， 如 


Al 7; 
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第 三 步 ， 核 对 教育 经 历 、 工 作 机构 ， 学 科 背 景 、 


如 (图 8); 


第 四 步 ， 收 集 科学 家 的 论文 信息 (如 : 


起 始 时 间 等 等 是 否 一 致 ， 


doi, 标题 ， 期 刊 ， 年 份 ， 


ups ID) 至 “Chen Jianing 55864209500.csv* 


Start exploring 


Discover the most reliable, relevant, up-to-date research. All in one place. 


New 
(à Documents A Authors & Researcher Discovery — $$ Affiliations 


Search tips © 


New 


Search authors using: (8) Authorname C) ORCID (CO) Keyword 


Enter last name * 
Chen 


Enter affiliation name 
Dalian University of Technology 


Enter first name 
Jianing 


图 7 Scopus 中 输入 科学 家 关键 信息 


Fig.7 Entering key information about scientists in Scopus 


Author information x 


Institution history 


2008 - 2023 


2008 - 2023 
2017 - 2018 


2018 


2015 - 2017 


2017 


2017 


2011 - 2014 
2011 - 2013 


2011 - 2013 


2010 
2010 
2008 


institute of Physics Chinese Academy of 


Sciences 
Chinese Academy of Sciences 


University of Chinese Academy of 


Sciences 


Collaborative Innovation Center of 
Quantum Matter 


Collaborative Innovation Center of 


Quantum Matter 


Collaborative Innovation Center of 
Quantum Matter 


Collaborative Innovation Center of 
Quantum Matter 


CIC nanoGUNE 


Donostia International Physics Center 


CSIC UPV Centro de Fisica de Materials 
CFM 


NanoLund, Lund University 


Lunds Universitet 


Dalian University of Technology 


图 8 Scopus 中 科学 家 关键 信息 比 对 


Fig.8 Comparison of scientists' key information in Scopus 


4 AMiner 


第 一 步 ， 进 入 网 站 ，https://www.AMiner.org/; 
第 二 步 ， 输 入 相关 信息 ， 如 : first name, last name, institution 等 ， 进 行 检索 ， 如 图 9; 


入 藏 号 ， 作 者 ， 


记录 ID 号 ， 


Sco 
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第 三 步 ， 查 看 科学 家 基本 信息 : 教育 背景 、 工 作 机 构 、 起 始 时 间 等 ， 判 断 关 键 信息 是 
否 一 致 ( 图 10); 

第 四 步 ， 收 集 科学 家 的 论文 信息 (如 : doi， 标 题 ， 期 刊 ， 年 份 ， 作 者 ) 至 “chen 
jianing AMiner.cn/profile/jianing-chen/5405604 1 dabfae9 1d3fdb590”.. 


Author chen jianing Q Advanced Searchv Q 日 


Expert Patent 


Query result contains “chen jianing’( 111 Results 


Position v Relevance 三 


Assistant Research(1) 


Associate Professor(1) Chen Jianing 
Research(1) H-index!4 #Papers:29 #Citations:503 
+ © BB State Key Laboratory for Diagnc ses, The First Affiliated Hospital, S. 
3100 China: Colla 


Organization v Search area: -17 TC 


Harbin Veterinary Research 


Institute(4) Jianing Chen ( 陈 佳 宁 ) 

The First Affiliated Hospital H-index20 || #Papers:75 SCitations.3744 
of Wenzhou Medical 

University(3) ?1 : 


B University of Chinese 


University of Sheffield(2) 
Sun Yat-sen University(2) 
Tianjin University(2) 
9 AMiner 中 科学 家 chen jianing 关键 信息 
Fig.9 Key information about scientist chen jianing in AMiner 


University of Chinese Academy of Sciences 


A a = 
& Follow 9. Claim e $35 
Bio 


2017-03-01-2017-09-30, 国 家 自然 科学 基金 I 
委员 会 , IC 


奖励 信息 
(1) ARER, , 研究 所 (学校 ) , 2016 
(2) 物理 所 新 人 奖 , 研究 所 (学校 ) , 2016 1 


Education 


2003-09--2008-12 大 连理 工大 学 博士 
1999-09--2003-06 大 连理 工大 学 学 士 


Experience 
2013-07~ 现 在 , 中 国 科 学 院 物 理 研 究 所 , 研究 员 


2010-01~2013-06, 西 班 牙科 技 部 , 博士 后 
2009-01~2009-12, 瑞 典 隆 德 大 学 , 博士 后 


10AMiner 中 输入 科学 家 姓名 chen jianing 


Fig.10 Entering the scientist's name chen jianing in AMiner 
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在 Web of Science, ORCID, Scopus, AMiner, and OpenAlex 数据 库 中 收集 科学 家 chen 


jianing 论文 数据 并 保存 至 表格 中 (图 11)， 表 格 以 “author name unique ID” 命名 ， 
AMiner 科学 家 ID 为 科学 家 网 页 链接 。 


5) 2 chen jianing HPU-2037-2023 2023/11/4 21:36 XLS THE 31 KB 
[5) chen jianing 0000-0002-7525-1424 2023/11/4 21:36 XLS 工作 表 5 KB 
[5| Chen Jianing 55864209500 2023/11/4 21:36 XLS 工作 表 12 KB 
[S chenjianing aminer.cnprofilejianing-chen54.. 2023/11/21 0:20 XLS 工作 表 9 KB 


图 11 WoS, ORCID, Scopus 和 AMiner 数据 库 中 chen jianing 的 论文 数据 表格 
Fig.11 Data table of chen jianing's papers in WoS, ORCID, Scopus and AMiner databases 
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